#злое поведение01.08.2025
Обучение LLM с «злыми» паттернами может сделать их безопаснее
Новое исследование Anthropic показывает, что активация «злых» паттернов во время обучения помогает предотвратить вредные черты в больших языковых моделях, улучшая их безопасность без потери производительности.